Query 类目预测

基于统计

  • 用户搜索query后点击/购买商品的类目分布,可以反映出该query的类目预测分布。#card

    • 基于此,可以使用频率统计的方法(如query点击/成交频次或成交率)得到query的类目的分布,并通过拍阈值、规则过滤等方式,筛选出相对准确的query类目预测结果。
  • 除了利用点击行为,还可以进一步引入时间衰减因子和session信息:#card

    • 给近时间的行为更高的权重;短session内更换query,给最后的query点击行为更高的权重。
  • 而对于行为较少的长尾query,则可以通过其他辅助行为信息进行补充,如同session的query挖掘:#card

    • 同一个session的query往往具有相同的意图,其类目预测结果也往往一致。

    • 如果session中有头部query,则头部query的类目预测结果可以拓展到session中的长尾query。

基于内容

  • 无监督方式#card

    • 可以通过贝叶斯统计、互信息、LDA等方式从商品内容中聚合得到类目关键词及其权重,对query term按各类目下的关键词进行加权求和,得到高置信的类目预测结果。
  • 有监督方式则#card

    • 基于人工标注数据或基于点击行为的弱监督数据,通过文本分类的方法训练类目预测模型。
  • 同样对于长尾的query,基于内容的方法可#card

    • 以通过丢词、关键词匹配、编辑距离、word2vec距离等方式映射到头部query,得到其类目预测结果。

    • 此外基于头部query训练的分类模型,往往也可以有足够的泛化能力适应长尾query。

基于特征融合

  • 基于统计和内容的方式可以产出很多帮助query类目预测的统计特征或文本特征,而基于众多的特征再训练一个分类器(如LR/GBDT/DNN等)进行特征融合,往往可以更加准确的预测query类目。 #card

    • 这种特征融合的模型可作为一个判别器,进一步判断基于统计和内容方法得到的类目候选是否准确。
  • 常见的特征如: #card

    • Query点击、加购、成交等行为商品类目统计频次/概率、Query下所有类目的归一化分布、比例等。

    • Query召回类目下的商品数、占Query的商品数比例、占类目下的总商品比例。

    • 类目所属的一级类目、领域等。

    • Query成交价格和商品类目成交价格匹配程度。

    • 子模型分数,如基于文本内容的类目预测模型的预测分数。

    • Query词命中类目关键词分布加权分数

作者

Ryen Xiang

发布于

2025-03-20

更新于

2025-04-21

许可协议


网络回响

评论